اخبار روزفناوری

اینتل بهینه‌سازی‌هایی را برای Llama 3.1 برای افزایش عملکرد در همه محصولات: Gaudi، Xeon، Core و Arc اعلام کرد.

اینتل بهینه‌سازی‌هایی را برای Llama 3.1 برای افزایش عملکرد در همه محصولات: Gaudi، Xeon، Core و Arc اعلام کرد.

Llama 3.1 متا اکنون فعال است و اینتل دارای اعلام کرد پشتیبانی کامل از مدل های هوش مصنوعی Llama 3.1 در کل مجموعه خود مانند Gaudi، Xeon، Arc و Core.

همه پردازنده‌ها و پردازنده‌های گرافیکی اینتل اکنون با مدل‌های هوش مصنوعی Llama 3.1 عملکرد بهتری دارند

متا به تازگی جدیدترین مدل زبان بزرگ Llama 3.1 امروز، که لاما نسخه 3 در آوریل منتشر شد. با آن، اینتل اعداد عملکرد Llama 3.1 را در آخرین محصولات خود، از جمله رایانه های شخصی Intel Gaudi، Xeon و AI مبتنی بر پردازنده های Core Ultra و گرافیک Arc منتشر کرد. اینتل به طور مداوم بر روی اکوسیستم نرم‌افزار هوش مصنوعی خود کار می‌کند و مدل‌های جدید Llama 3.1 بر روی محصولات هوش مصنوعی آن که با چارچوب‌های مختلفی مانند PyTorch و Intel Extension برای PyTorch، DeepSpeed، Hugging Face Optimum Libraries و vLLM در دسترس هستند، فعال می‌شوند تا اطمینان حاصل شود که کاربران عملکرد بهتری دارند. در مرکز داده، لبه و محصولات هوش مصنوعی مشتری برای جدیدترین Meta LLM.

Llama 3.1 از مجموعه LLMهای چندزبانه تشکیل شده است که مدل های تولیدی از پیش آموزش دیده و تنظیم شده با دستورالعمل را در اندازه های مختلف ارائه می دهد. بزرگترین مدل پایه معرفی شده در Llama 3.1 اندازه 405B است که قابلیت های پیشرفته ای را در دانش عمومی، هدایت پذیری، ریاضیات، استفاده از ابزار و ترجمه چند زبانه ارائه می دهد. مدل‌های کوچک‌تر شامل اندازه‌های 70B و 8B هستند که اولی یک مدل بسیار کارآمد و در عین حال مقرون‌به‌صرفه است و دومی یک مدل سبک وزن برای پاسخ‌دهی فوق‌العاده سریع است.

llama-3-1-70b-on-gaudi-cropped
Meta Llama 3.1 405B Intel Gaudi 2

اینتل Llama 3.1 405B را روی شتاب‌دهنده‌های Intel Gaudi خود، که پردازنده‌های ویژه‌ای برای آموزش و استنتاج مقرون‌به‌صرفه و با کارایی بالا طراحی شده‌اند، آزمایش کرد. نتایج نشان دهنده پاسخ سریع و توان عملیاتی بالا با طول توکن های مختلف است که قابلیت های شتاب دهنده های Gaudi 2 و نرم افزار Gaudi را نشان می دهد. به طور مشابه، گائودی 2 شتاب‌دهنده‌ها عملکرد سریع‌تری را در مدل 70B با طول توکن‌های 32k و 128k نشان می‌دهند.

عملکرد برای Llama 8Bcal Process 3.

در مرحله بعد، پردازنده‌های Xeon Scalable نسل پنجم اینتل را روی میز آزمایش داریم که عملکرد را با طول‌های توکن مختلف نشان می‌دهند. با ورودی های توکن 1K، 2K و 8K، تأخیر توکن در هر دو تست BF16 و WOQ INT8 در یک محدوده نزدیک است (عمدتاً زیر 40 میلی ثانیه و 30 میلی ثانیه). این نشان دهنده واکنش سریع پردازنده های Xeon اینتل است که دارای Intel AMX (Advanced Matrix Extensions) برای عملکرد برتر هوش مصنوعی هستند. حتی با 128 هزار ورودی توکن، تأخیر در هر دو تست زیر 100 میلی‌ثانیه باقی می‌ماند.

d8a7db8cd986d8aad984 d8a8d987db8cd986d987d8b3d8a7d8b2db8cd987d8a7db8cdb8c d8b1d8a7 d8a8d8b1d8a7db8c llama 3 1 d8a8d8b1d8a7db8c 66a0d802a68e1
llama-3-1-8b-on-intel-core-ultra-7165h-cropped
< img srcset="https://cdn.wccftech.com/wp-content/uploads/2024/07/Llama-3.1-8B-Intel-ARC-A770-16GB-1456x775.jpg 2x، https://cdn.wccftech .com/wp-content/uploads/2024/07/Llama-3.1-8B-Intel-ARC-A770-16GB-728x388.jpg 1x" src="https://cdn.wccftech.com/wp-content/uploads /2024/07/Llama-3.1-8B-Intel-ARC-A770-16GB-564x300.jpg" alt="llama-3-1-8b-on-intel-arc-a770-16gb-limited-edition-cropped" />

استنتاج Llama 3.1 8B در پردازنده‌های Intel Core Ultra بسیار سریع است و همچنین هنگام آزمایش بر روی مدل 8B-Instruct 4-bit Weights. همانطور که در Core Ultra 7 165H با گرافیک داخلی Arc آزمایش شد، تاخیر توکن بین 50 میلی‌ثانیه تا 60 میلی‌ثانیه با ورودی‌های 32، 256، 512 و 1024 توکن باقی می‌ماند. در یک پردازنده گرافیکی Arc مجزا مانند Arc A770 16GB Limited Edition، تأخیر بسیار کم است و با هر چهار اندازه ورودی نشانه متفاوت، حدود 15 میلی‌ثانیه باقی می‌ماند.

این داستان را به اشتراک بگذارید

< استفاده از xlink:href="#icn-shareFacebook"/> فیس بوک

< استفاده از xlink:href="#icn-shareTwitter"/> توییتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا